L'inférence statistique demande : « Étant donné ces données, quelles sont les valeurs les plus probables des paramètres sous-jacents ? » Cette diapositive relie cette question à l'optimisation convexe. Nous transformons la notion probabiliste de vraisemblance en un programme structuré, en montrant que, sous des conditions de log-concavité, trouver la meilleure estimation équivaut à résoudre un problème d'optimisation convexe.
Le cadre de la vraisemblance
La fonction de vraisemblance est la distribution de probabilité $p_x(y)$ considérée comme une fonction du paramètre $x$ pour un échantillon observé fixe $y$. Pour estimer $x$, nous utilisons l'estimation du maximum de vraisemblance (MV): en choisissant la valeur qui rend les données observées les plus probables.
$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$
Pour des raisons de performance computationnelle, nous utilisons la fonction de log-vraisemblance, $l(x) = \log p_x(y)$. Comme le logarithme est une fonction strictement croissante, il préserve la position du maximum tout en transformant les produits (issus d'observations indépendantes) en sommes faciles à manipuler.
Le programme d'optimisation MV (7.1)
Nous formalisons l'estimation comme un programme mathématique :
Ce programme est un problème d'optimisation convexe si :
- La fonction de log-vraisemblance $l$ est concave pour chaque valeur de $y$.
- L'ensemble admissible $C$ (informations a priori) est décrit par des contraintes d'égalité linéaires et d'inégalités convexes.
Intégration des contraintes et des informations a priori
L'estimation MV nécessite de redéfinir $p_x(y)$ comme nulle pour $x \notin C$ afin d'imposer explicitement des contraintes physiques ou a priori. Dans l'espace d'optimisation, cela signifie que la fonction de log-vraisemblance est assignée à la valeur $-\infty$ pour les paramètres $x$ qui violent ces contraintes, créant ainsi une barrière infranchissable pour l'optimiseur.